Machado de Assis

Machado de Assis

1 OCR

Utilizando a biblioteca tesseract para extrair o texto de uma imagem. Verificando quais línguas estão disponíveis. Precisamos de português, se não estiver instalado, rodar tesseract_download("por").

## [1] "eng" "osd" "por"

Vamos utilizar está página de Dom Casmurro:

Primeiramente, cropamos o texto e aumentamos o contraste para melhorar o processamento:

Utilizando a biblioteca magick para melhorar a imagem para processamento, obtemos o seguinte resultado após utilizar o tesseract():

## CXXXVI
## A chicara de café.
## 
## O meu plano foi esperar o café, dissolver nelle
## a droga e ingeril-a. Até lá, não tendo esquecido de
## todo a minha historia romana, lembrou-me que
## Catão, antes de se matar, leu e releu um livro de
## Platão. Não linha Platão commigo; mas um tomo
## truncado de Plutarcho, em que era narrada a vida
## do celebre romano, bastou-me a occupar aquelle
## pouco tempo, e, para em tudo imital-o, estirei-me
## no canapé. Nem era só imilal-o nisso; linha neces-
## sidade de incutir em mim a coragem delle, assim
## como elle precisára dos sentimentos do philosopho,
## para intrepidamente morrer. Um dos males da igno-
## rancia é não ter este remedio à ultima hora. Ha
## muita gente que se mata sem elle, e nobremento
## expira; mas estou que muila mais gente poria
## termo aos seus dias, se pudesse achar essa especie
## le cocaina moral «dos bons livros. Entretanto,
## querendo fugir a qualquer suspeita de imitação,
## lembra-me bem que, para não ser encontrado ao pé

2 Palavras Mais Frequentes

Para as próximas seções, utilizaremos 5 romances de Machado de Assis em formato .txt:

  • Dom Casmurro
  • Memórias Póstumas de Brás Cubas
  • Quincas Borba
  • Esaú e Jacob
  • A Mão e a Luva

3 Word Cloud

Podemos exibir a frequência de palavras utilizando uma wordcloud:

5 Topic Modeling

Fazendo uma análise de tópicos:

5.1 Capítulos de Dom Casmurro (4 tópicos)

## Warning in stm(dfm_word_freq_casmurro, K = 2, verbose = FALSE, init.type =
## "Spectral"): K=2 is equivalent to a unidimensional scaling model which you may
## prefer.

Palavras associadas aos 4 tópicos: